Unsupervised sim-to-real domain adaptation (UDA) for semantic segmentation aims to improve the real-world test performance of a model trained on simulated data. It can save the cost of manually labeling data in real-world applications such as robot vision and autonomous driving. Traditional UDA often assumes that there are abundant unlabeled real-world data samples available during training for the adaptation. However, such an assumption does not always hold in practice owing to the collection difficulty and the scarcity of the data. Thus, we aim to relieve this need on a large number of real data, and explore the one-shot unsupervised sim-to-real domain adaptation (OSUDA) and generalization (OSDG) problem, where only one real-world data sample is available. To remedy the limited real data knowledge, we first construct the pseudo-target domain by stylizing the simulated data with the one-shot real data. To mitigate the sim-to-real domain gap on both the style and spatial structure level and facilitate the sim-to-real adaptation, we further propose to use class-aware cross-domain transformers with an intermediate domain randomization strategy to extract the domain-invariant knowledge, from both the simulated and pseudo-target data. We demonstrate the effectiveness of our approach for OSUDA and OSDG on different benchmarks, outperforming the state-of-the-art methods by a large margin, 10.87, 9.59, 13.05 and 15.91 mIoU on GTA, SYNTHIA$\rightarrow$Cityscapes, Foggy Cityscapes, respectively.
translated by 谷歌翻译
由于在不良视觉条件下记录的图像的密集像素级语义注释缺乏,因此对此类图像的语义分割的无监督域适应性(UDA)引起了兴趣。 UDA适应了在正常条件下训练的模型,以适应目标不利条件域。同时,多个带有驾驶场景的数据集提供了跨多个条件的相同场景的相应图像,这可以用作域适应的弱监督。我们提出了重新设计,这是对基于自训练的UDA方法的通用扩展,该方法利用了这些跨域对应关系。重新调整由两个步骤组成:(1)使用不确定性意识到的密度匹配网络将正常条件图像与相应的不良条件图像对齐,以及(2)使用自适应标签校正机制来完善不良预测,并使用正常预测。我们设计自定义模块,以简化这两个步骤,并在几个不良条件基准(包括ACDC和Dark Zurich)上设置域自适应语义分割的新技术。该方法不引入额外的训练参数,只有在训练期间最少的计算开销 - 可以用作撤离扩展,以改善任何给定的基于自我训练的UDA方法。代码可从https://github.com/brdav/refign获得。
translated by 谷歌翻译
尽管学术和公司的努力很大,但在不利视觉条件下的自动驾驶仍然证明具有挑战性。随着神经形态技术的成熟,其应用于机器人技术,自动驾驶汽车系统已成为积极研究的领域。低光和潜伏期的情况可以受益。为了使事件摄像机能够在感知任务中与LiDAR这样的主食传感器一起操作,我们提出了事件摄像机和激光镜头之间的直接,时间耦合的校准方法。利用事件摄像机的高动态范围和低光操作直接注册LIDAR激光返回,从而允许基于信息的相关方法优化两个传感器之间的6DOF外部校准。本文介绍了事件摄像机和激光镜头之间的第一种直接校准方法,从而消除了对基于框架的相机中介机构和/或高度准确的手部测量的依赖性。代码将公开可用。
translated by 谷歌翻译
Implicit fields have been very effective to represent and learn 3D shapes accurately. Signed distance fields and occupancy fields are the preferred representations, both with well-studied properties, despite their restriction to closed surfaces. Several other variations and training principles have been proposed with the goal to represent all classes of shapes. In this paper, we develop a novel and yet fundamental representation by considering the unit vector field defined on 3D space: at each point in $\mathbb{R}^3$ the vector points to the closest point on the surface. We theoretically demonstrate that this vector field can be easily transformed to surface density by applying the vector field divergence. Unlike other standard representations, it directly encodes an important physical property of the surface, which is the surface normal. We further show the advantages of our vector field representation, specifically in learning general (open, closed, or multi-layered) surfaces as well as piecewise planar surfaces. We compare our method on several datasets including ShapeNet where the proposed new neural implicit field shows superior accuracy in representing any type of shape, outperforming other standard methods. The code will be released at https://github.com/edomel/ImplicitVF
translated by 谷歌翻译
Efficient detection and description of geometric regions in images is a prerequisite in visual systems for localization and mapping. Such systems still rely on traditional hand-crafted methods for efficient generation of lightweight descriptors, a common limitation of the more powerful neural network models that come with high compute and specific hardware requirements. In this paper, we focus on the adaptations required by detection and description neural networks to enable their use in computationally limited platforms such as robots, mobile, and augmented reality devices. To that end, we investigate and adapt network quantization techniques to accelerate inference and enable its use on compute limited platforms. In addition, we revisit common practices in descriptor quantization and propose the use of a binary descriptor normalization layer, enabling the generation of distinctive binary descriptors with a constant number of ones. ZippyPoint, our efficient quantized network with binary descriptors, improves the network runtime speed, the descriptor matching speed, and the 3D model size, by at least an order of magnitude when compared to full-precision counterparts. These improvements come at a minor performance degradation as evaluated on the tasks of homography estimation, visual localization, and map-free visual relocalization. Code and trained models will be released upon acceptance.
translated by 谷歌翻译
我们提出了一项针对一项名为DiChotomous Image Segmentation(DIS)的新任务的系统研究,该任务旨在从自然图像中划分高度准确的对象。为此,我们收集了第一个称为DIS5K的大规模DIS​​数据集,其中包含5,470个高分辨率(例如2K,4K或4K或更大的图像,涵盖了遮盖,明显或细致的物体,在各种背景中。 DIS带有非常细粒的标签注释。此外,我们使用功能级和面具级别的模型培训指南介绍了一个简单的中间监督基线(IS-NET)。 IS-NET在拟议的DIS5K上的表现优于各种尖端基线,使其成为一个普遍的自学监督网络,可以促进未来的DIS研究。此外,我们设计了一个称为人类纠正工作(HCE)的新指标,该指标近似于纠正误报和假否定的鼠标点击操作的数量。 HCE用于测量模型和现实世界应用之间的差距,因此可以补充现有指标。最后,我们进行了最大规模的基准测试,评估了16个代表性分割模型,提供了有关对象复杂性的更深入的讨论,并显示了几种潜在的应用(例如,背景删除,艺术设计,3D重建)。希望这些努力能为学术和行业开辟有希望的方向。项目页面:https://xuebinqin.github.io/dis/index.html。
translated by 谷歌翻译
基于LIDAR的应用的现有学习方法使用预先确定的波束配置下扫描的3D点,例如,光束的高度角度均匀分布。那些固定的配置是任务不可行的,因此只需使用它们即可导致次优性能。在这项工作中,我们采取了新的路线来学习优化给定应用程序的LIDAR波束配置。具体地,我们提出了一种基于加强学习的学习 - 优化(RL-L2O)框架,以便以不同的基于LIDAR的应用程序以端到端的方式自动优化光束配置。优化是通过目标任务的最终性能指导的,因此我们的方法可以通过任何基于LIDAR的应用程序轻松集成为简单的下载模块。例如,当需要低分辨率(低成本)LIDAR时,该方法特别有用,例如,用于以大规模的系统部署。我们使用方法来搜索两个重要任务的低分辨率LIDAR的光束配置:3D对象检测和本地化。实验表明,与基线方法相比,所提出的RL-L2O方法显着提高了两项任务的性能。我们认为,我们的方法与最近可编程Lidars的进步的组合可以启动基于LIDAR的积极感知的新的研究方向。代码在https://github.com/vnemlas/lidar_beam_selection上公开使用
translated by 谷歌翻译
不同的自我监督任务(SSL)显示数据的不同功能。学习的特征表示可以为每个下游任务表现出不同的性能。在这种灯中,这项工作旨在将概括为所有下游任务的多个SSL任务(多SSL)组合。具体地,对于本研究,我们研究了隔离的双耳声音和图像数据。对于双耳声音,我们提出了三个SSL任务即,空间对齐,前景对象的时间同步和双耳音频和时间间隙预测。我们调查了多个SSL的几种方法,并在视频检索,空间声音超分辨率和Omniaudio数据集上的语义预测中深入了解下游任务性能。我们对双耳声音表示的实验表明,通过SSL任务的增量学习(IL)的多SSL优于单个SSL任务模型和下游任务性能的完全监督模型。作为对其他方式的适用性的检查,我们还制定了我们的多SSL模型,用于图像表示学习,我们使用最近提出的SSL任务,MoCov2和Densecl。在这里,Multi-SSL在VOC07分类和COCO检测上以2.06%,3.27%和1.19%的+2.83,+1.56和+1.61 AP等近期近期的方法。代码将公开可用。
translated by 谷歌翻译
在本文中,我们研究了使用它们的关键点的形状和姿势的表示。因此,我们提出了一种端到端的方法,其同时从图像中检测2D关键点并将它们升到3D。该方法仅从2D关键点注释学习2D检测和3D升降。在这方面,提出了一种通过基于增强的循环自我监督来明确地解除姿势和3D形状的新方法。除了在图像到3D学习的图像端到端,我们的方法还使用单个神经网络处理来自多个类别的对象。我们使用基于变换器的架构来检测关键点,以及总结图像的视觉上下文。然后将该视觉上下文信息升降到3D时,以允许基于上下文的推理以获得更好的性能。在提升时,我们的方法学习一小一小一组基础形状和稀疏的非负系数,以表示规范框架中的3D形状。我们的方法可以处理闭塞以及各种各样的对象类。我们对三个基准测试的实验表明,我们的方法比现有技术更好。我们的源代码将公开可用。
translated by 谷歌翻译
由于获取对语义分割的实际图像的像素明智的注释是一个昂贵的过程,模型可以通过更多可访问的合成数据训练,并且适应真实图像而不需要其注释。在无监督的域适应(UDA)中研究了该过程。尽管大量方法提出了新的适应策略,但它们主要基于过时的网络架构。由于尚未系统地研究了网络架构的影响,我们首先为UDA进行基准标记不同的网络架构,然后提出基于基准结果的新型UDA方法Daformer。 DAFormer网络由变压器编码器和多级上下文感知功能融合解码器组成。它通过三种简单但重要的培训策略使稳定培训并避免将DAFFormer过度装箱到源域:虽然通过减轻自我训练的确认偏差来提高源域上的罕见类别提高了伪标签的质量常见的类,Thing-Class Imagenet特征距离和学习率预热促进了从想象成预介绍的功能转移。 Daformer显着提高了最先进的性能,通过10.8 Miou for GTA-> Citycapes和5.4 Miou for Synthia-> Citycapes,并使得甚至是学习甚至困难的课程,如火车,公共汽车和卡车。该实现可在https://github.com/lhoyer/daformer中获得。
translated by 谷歌翻译